Caracterización de la cola de arrepentimiento de algoritmos de bandas óptimas con recompensas genéricas
Optimización de bandas algorítmicas con recompensas genéricas y límites de arrepentimiento. Descubre cómo los algoritmos de bandit pueden lograr resultados óptimos en diferentes escenarios.